分批归一化(BN)是一种无处不在的技术,用于训练深层神经网络,可加速其收敛以达到更高的准确性。但是,我们证明了BN具有根本的缺点:它激励该模型依赖于训练(内域)数据高度特定的低变义特征,从而损害了室外示例的概括性能。在这项工作中,我们首先表明在各种架构上删除BN层会导致较低的域外和腐败错误,而造成较高的内域错误,因此我们首先研究了这种现象。然后,我们提出了反平衡老师(CT),该方法利用与老师的老师一起利用同一模型的冷冻副本,通过通过一致性损失功能实质上调整其权重来实现学生网络对强大表示的学习。该正则化信号有助于CT在不可预见的数据变化中表现良好,即使没有从目标域中的信息如先前的工作中。从理论上讲,我们在过度参数化的线性回归设置中显示了为什么归一化导致模型对这种内域特征的依赖,并通过验证CT的功效来证明CT的功效,从而在稳健性基准(例如CIFAR-10-C,CIFAR-10-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100)上表现出了疗效。和VLCS。
translated by 谷歌翻译